Проведены исследования возможностей аугментации (искусственного размножения) обучающих данных в задаче классификации с использованием деформирующих преобразований обрабатываемых изображений. Представлены математическая модель и быстродействующий алгоритм выполнения деформирующего преобразования изображения, при использовании которых исходное изображение преобразуется с сохранением своей структурной основы и отсутствием краевых эффектов. Предложенный алгоритм используется для аугментации наборов изображений в задаче классификации, содержащих относительно небольшое количество обучающих примеров. Аугментация исходной выборки осуществляется в два этапа, включающих зеркальное отображение и деформирующее преобразование каждого исходного изображения. Для проверки эффективности подобной техники аугментации в статье проводится обучение нейронных сетей – классификаторов различного вида: сверточных сетей стандартной архитектуры (convolutional neural network, CNN) и сетей с остаточными связями (deep residual network, DRN). Особенностью реализуемого подхода при решении рассматриваемой задачи является также отказ от использования предобученных нейронных сетей с большим количеством слоев и дальнейшим переносом обучения, поскольку их применение несет за собой затраты с точки зрения используемого вычислительного ресурса. Показано, что эффективность классификации изображений при реализации предложенного метода аугментации обучающих данных на выборках малого и среднего объема повышается до статистически значимых значений используемой метрики.
Современные системы преобразования текста в речь обычно обеспечивают хорошую разборчивость. Одним из главных недостатков этих систем является отсутствие выразительности по сравнению с естественной человеческой речью. Очень неприятно, когда автоматическая система передает утвердительные и отрицательные предложения совершенно одинаково. Введение параметрических методов в синтезе речи дало возможность легко изменять характеристики говорящего и стили речи. В этой статье представлен простой способ включения стилей в синтезированную речь, используя стилевые коды.
Предлагаемый метод требует всего лишь пару минут заданного стиля, чтобы смоделировать нейтральную речь. Он успешно применяется как в скрытых марковских моделях, так и в синтезе на основе глубоких нейронных сетей, предоставляя стилевой код как дополнительный вклад в модель. Аудирование подтвердило, что наибольшая выразительность достигается за счет синтеза глубоких нейронных сетей по сравнению с синтезом скрытых марковских моделей. Также доказано, что качество речи, синтезированное глубокими нейронными сетями в определенном стиле, сопоставимо с речью, синтезированной в нейтральном стиле, хотя база данных нейтральной речи примерно в 10 раз больше. Глубокие нейронные сети на основе синтеза речи по тексту со стилевыми кодами изучаются путем сравнения качества речи, создаваемой системами одностилевого моделирования и многостилевого моделирования. Объективные и субъективные измерения подтвердили, что между этими двумя подходами нет существенной разницы.
1 - 2 из 2 результатов